Количество автомобилей в разрезе основных характеристик

Тип топлива Cars %
gaz-benzin 4072 65.25
benzin 2169 34.75
Тип кузова Cars %
sedan 5857 93.85
khetchbek 384 6.15
Коробка передач Cars %
Ручная / Механика 6139 98.37
Автомат 102 1.63
Объём двигателя Cars %
1.5л. 4696 75.24
1.4л. 800 12.82
1.3л. 94 1.51
1.6л. 651 10.43
Призводитель марки Cars %
Daewoo 5825 93.33
ЗАЗ 393 6.30
Chevrolet 23 0.37

Предварительные общие выводы:

Общие тенденции и характеристики

Общее распределение цены автомобилей выглядит следующим образом.

Из графика видно, что больше всего автомобилей на рынке представленно по цене 3500$.

Распределение возраста автомобилей представленно на следующем графике.

То есть, типичный возраст автомобилей лежит в рамках от 9 до 15 лет.

Распределение пробега автомобилей представленно на следующем графике.

Типичный пробег для автомобилей находится в диапазоне от 75 до 200 тыс.км.

Рассмотрим зависимость цены от различных показателей.

Анализ стоимости авто

Общее распределение цены и возраста авто выглядит следующим образом. Распределение имеет тенденцию к линейной зависимости рассматриваемых переменных.

На графике видна чёткая закономерность снижения стоимости авто с возрастом.

Распределение цены и пробега авто также имеет линейную тенденцию и выглядит следующим образом.

Благодаря наблюдению склонности к линейной тенденции, появляется возможность применить множественную линейную регрессию для описания закона изминения цены на автомобиль от раличных параметров автомобиля.

Проверим, как влияют различные параметры на стоимость авто. Для этого построим регрессионные прямые для наборов факторов каждого показателя.

Цена / тип кузова

Цена авто на хэтчбэк выше чем на седан. Но, разница в цене не значительна, а доля хэтчбэков всего 6.15%. Соответственно, возможно в последствии продать хэтчбэк будет сложнее.

Цена / тип топлива

Установка ГБО не влияет на цену авто, поэтому можно приобрести авто с ГБО установкой по цене бензинового типа. Причём, авто с ГБО установкой составляют 2/3 всех предложений данной марки.

Цена / тип коробки передач

Автоматическая коробка передач встречается всего в 1.63% случаев для данной марки (102 объявления). Поэтому, нет смысла детально рассматривать данный разрез.

Хотя поверхностный анализ говорит, что машины с автоматической коробкой передач дороже механических аналогов на примерно 800$.

Цена / объём двигателя

  • Имеем возможно визуально убедится в том, что двигатели объёмом \(1.5л\) являются самыми распространёнными.
  • Интересно заметить, что почти всё машины с объёмом двигателя \(1.6л\) старше 10 лет
  • А типичный возраст для машин с объёмом двигателя \(1.4л\) - 10-11 лет
  • В тоже время все машины с объёмом двигателя \(1.3л\) моложе 6 лет, но в целом их количество незначительно

Цена / производитель

На графике видно, что машины марки Daewoo в основном имею возраст больше 10 лет. Машины младше 10 лет производились заводом ЗАЗ. И колиечство машин марки Chevrolete имеют незначительное кол-во представителей.

Модель множественной линейной регресси от основных характеристик

Проанализируем влияние каждого из рассмотреных показателей автомобиля на его цену \((USD)\). Применим метод множественной линейной регрессии.

    USD
    B CI p
(Intercept)   5030.40 4899.56 – 5161.24 <.001
age   -122.26 -127.57 – -116.94 <.001
autoData.raceInt   -3.23 -3.45 – -3.02 <.001
autoData.fuelName
1.4л.   31.98 -90.28 – 154.24 .608
1.5л.   515.93 399.81 – 632.05 <.001
1.6л.   720.53 597.62 – 843.44 <.001
autoData.fuelNameEng (gaz-benzin)   0.48 -29.95 – 30.91 .975
autoData.gearboxName (Автомат)   1034.83 917.85 – 1151.81 <.001
autoData.subCategoryNameEng (khetchbek)   170.04 110.43 – 229.65 <.001
Observations   6241
R2 / adj. R2   .501 / .500

Анализ таблицы линейной регрессии:

Интерпретация коефициентов модели

Модели линейной регрессии достаточно простые, но имею одно существенное преимущество перед большинством более сложных методов. Преимущество заключается в простоте и интуитивности интерпрретации модели.

Посмотрим, какие можно сделать выводы смотря на таблицу коэфициентов модели.

Коэфициент \(B_0\) он же \((Intercept)\) показывает стоимость автомобиля при установлении всех показателей на базовый уровень:

  • возраст авто \(0~лет\)
  • пробег \(0~км\)
  • объём двигателя \(1.3л\)
  • только бензин
  • механика
  • седан

Итак, вывод:

  • базовая стоимость авто \(5030\) USD
  • с каждым годом авто изменяется в цене на \(-122\) USD
  • за авто с двигателем объёмом \(1.5л\) придётся доплатить \(516\) USD а за авто с двигателем \(1.6л\) \(721\) USD
  • автомобили с установленным ГБО не отличаются в цене от исключительно бензиновых аналогов
  • машина с автоматической коробкой передач будет отличатся от механической на \(1035\) USD
  • цена на авто в кузове хэтчбэк отличается от цены на кузов седан на \(170\) USD

Визуальный анализ модели

Сколько стоит авто подходящее необходимым требованиям?

Механика расчёт стоимости согласно модели множественной линейной регрессии

Допустим мы хотим купить авто анализируемой модели. Введём основные параметры которые нас интересуют.

К примеру. Мы хотим купить авто по следующим требованиям:

  • авто младше 10 лет
  • пробег меньше 100 тыс. км.
  • механическая коробка передач
  • установленное ГБО
  • двигатель 1.5л

Рассчитаем стоимость авто по данным требованиями согласно полученой модели.

wanted_years <- 10 # Максимальный возраст авто
wanted_race <- 100 # Максимальный пробег
wanted_gear <- 1 # Авто имеет ручную коробку передач (да - 1, нет - 0)?
wanted_body <- 1 # Авто имеет кузов седан (да - 1, нет - 0)?
wanted_gearType1.5 <- 1

\[x = Intercept - coef_{age}*wanted_{years} + \\ coef_{autoData.raceInt}*wanted_{race} + \\ coef_{autoData.gearboxName}*wanted_{gear} + \\ coef_{autoData.fuelName}*wanted_{gearType} + \\ coef_{autoData.subCategory}*wanted_{body} = \\ 5030.4 + -122.26*wanted_{years} + \\ -3.23*wanted_{race} + \\ 1034.83*wanted_{gear} + \\ 515.93*wanted_{gearType} + \\ 170.04*wanted_{body} = \\5205\]

Итак, авто с данными параметрами должно стоить ориентировочно 5205$.

Теперь, предположим, что нас интересует более новое авто, к примеру, возрастом до 5 лет. Поменяем необходимый параметр и посмотрим на какую стоимость мы можем рассчитывать.

wanted_years_2 <- 5 # Максимальный возраст авто

По аналогичной формуле стоимость такого авто ориентировочно равна 5817$.

Оценка стоимости авто по заданым параметрам

Отойдём от математической части оценки стоимости автомобилей и воспользуемся средаствами языка R для автоматической оценки.

USD_lm age autoData.raceInt autoData.fuelName autoData.gearboxName autoData.fuelNameEng autoData.subCategoryNameEng
4773.869 5 50 1.5л. Ручная / Механика gaz-benzin sedan
4162.583 10 50 1.5л. Ручная / Механика gaz-benzin sedan
4612.207 5 100 1.5л. Ручная / Механика gaz-benzin sedan
4000.921 10 100 1.5л. Ручная / Механика gaz-benzin sedan
5808.700 5 50 1.5л. Автомат gaz-benzin sedan
5197.414 10 50 1.5л. Автомат gaz-benzin sedan
5647.038 5 100 1.5л. Автомат gaz-benzin sedan
5035.752 10 100 1.5л. Автомат gaz-benzin sedan

Вывод

С бюджетом в 5000$ можно расчитывать на хороший автомобиль возрастом до 5 лет, с пробегом до 100 тыс.км., объёмом двигателя 1.5л, с механической коробкой передач и установленным ГБО.

С бюджетом в 6000$ можно рассматривать автомобили с аналогичными характеристиками, но с автоматической коробкой передач. Но, строго говоря, вероятность найти авто с двигателем 1.5 литров и автоматической коробкой автомат очень мала. Таких вариантов авто продавалось всего 5 экземпляров. И у всех из них был пробег больше 100 тыс.км. А вот найти аналоги с двигателем меньшего объёма вполне реально.